arxiv：2501.00663v1 [cs.lg] 2024年12月31日__

arxiv：2501.00663v1 [cs.lg] 2024年12月31日

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2501.00663v1 [cs.lg] 2024年12月31日

¥ 2.0

热度

十多年来，已经进行了广泛的研究工作，即如何有效利用复发模型和注意力。重复模型旨在将数据压缩到固定大小的内存（称为隐藏状态）中，但注意力允许参与整个上下文窗口，从而捕获所有令牌的直接依赖性。然而，这种更准确的依赖性建模带有二次成本，将模型限制在固定长度上下文中。我们提出了一个新的神经长期记忆模块，该模块学会记住历史上下文，并有助于关注当前的环境，同时使用长期过去的信息。我们表明，这种神经记忆具有快速平行训练的优势，同时保持快速推断。从内存的角度来看，我们认为，由于其有限的上下文而引起的注意力，但准确的依赖性建模作为短期内存，而神经记忆由于记忆数据的能力而引起的，它是长期，更持久的记忆。基于这两个模块，我们介绍了一个新的架构系列，称为Titans，并提出了三个变体，以解决如何有效地将内存纳入该体系结构。我们对语言建模，常识性推理，基因组学和时间序列任务的实验结果表明，泰坦比变形金刚和最近的现代线性复发模型更有效。与基线相比，它们可以有效地扩展到大于2M上下文窗口尺寸，并具有更高的准确性。

添加pdf代下载 VIP点击下载文件